中文分词相关论文
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为......
医学知识库是帮助医生和医疗从业人员获取医学知识和临床建议的重要工具,是提高医生医疗服务能力的重要手段。当前缺乏为基层医生......
针对当前优质中医古籍语料库较为缺乏的问题,对《黄帝内经》全书156,507字进行人工标注,构建集词性标注和分词一体的《黄帝内经》中......
中文分词作为实现机器处理中文的一项基础任务,是近几年的研究热点之一。其结果对后续处理任务具有深远的影响,具备充分的研究意义。......
中文分词是自然语言处理中一项重要的基础任务。由于中文词汇存在多义词、同音字等特殊性,能够准确地完成分词任务是近年来中文分词......
期刊
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟......
随着人机对话技术的不断发展,各种各样的智能对话系统层出不穷,如:领域问答系统、闲聊机器人、终端导航机器人等智能产品,很大程度......
不同于英语等语种,中文词语之间没有明显的分隔符,这对于中文的理解造成了一定的困难。为了便于计算机对中文的理解,需要将中文文......
文本的情感倾向性分析是当今自然语言处理的研究热点之一。文本情感倾向性分析是通过对文本信息的挖掘,从而判断文本的情感倾向。......
知识图谱具备动态性、空间性、关联性、知识依赖性四个特点,不仅可以通过可视化模型将知识以有向图的形式直观地呈现出来,获取它们......
在日常生活和工作学习中,人们已经习惯从互联网中获取信息,搜索引擎成为沟通人与互联网信息的桥梁。伴随着各行各业不断信息化的发......
近年来,随着社会技术的突飞猛进,尤其是人工智能技术的飞速发展,便捷的语音人机交互技术在文体领域的各类应用场景快速呈现。文体......
随着牵引供电系统智能运维的发展,对牵引供电设备在全生命周期内形成的各类数据的挖掘、分析的重要性日益凸显。目前针对牵引供电......
文本自动分词是非物质文化遗产相关数字人文研究的基础与关键步骤,是深度发掘非遗内在信息的前提。文章构建了国家级非物质文化遗产......
一直以来,中文分词都被当做是中文信息处理的第一站。而命名实体往往是句子最令人关注的成分,而中文分词任务的输出是作为命名实体......
随着我国互联网技术的进步和飞速发展,线上购物已然逐渐成为当下一种最主流的购物方式,给现代社会人们的日常生活和工作方式都带来......
进入21世纪以来,计算机技术发展越来越快,计算机技术也应在生活中的方方面面,人类社会的进步也离不开计算机技术的发展和应用。特......
近年来,随着人工智能技术的发展,越来越多人开始关注智能阅卷方面的研究。现阶段的自动评分系统对于客观题如判断题、选择题以及填......
近年来,随着大数据技术广泛的应用,语料库技术在各类语言中快速发展,并在很多领域内取得了巨大的进步。在自然语言处理领域中,中英......
中文分词是指将汉语句子按一定规则切分进而得到单独的词的过程,是中文自然语言处理中最为基础的任务。中文分词方法根据其原理可......
为便利听障人士的正常社会生活,提高其社会融入度,设计开发了基于B/S模式的仿真手语翻译系统.此系统包含语音识别模块、文本分词模......
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
随着信息共享时代的发展,海量数据的诞生对推荐系统提出了更高的要求.针对微博的海量数据,提出了一种融合朴素贝叶斯分类和基于用......
中文分词问题的研究能够为其他中文处理问题提供更准确的特征。诸如:文本分类,信息检索,问答系统,机器翻译,机器阅读等研究问题都......
Github已经成为当下最受欢迎的开源代码托管平台,越来越多的开发人员和企业将项目上传到Github平台上。开发人员由于疏忽和安全意......
中文分词属于自然语言处理技术子集,对中文分词技术的研究由来已久,文章基于Python结巴分词,从概述、分类、方法、挑战、应用及现......
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方......
随着自发地理信息和中文地址要素切分技术的发展,地址要素的质量有待评价。本文针对中文地址文本切分产生的地址要素质量难以有效......
近年来互联网快速发展,传统的线下交易已经在互联网的带动下大量转移到了线上。线上交易的虚拟性导致它存在着商品质量难以保障,用......
当突发公共事件发生时,如何正确引导网络舆论,消除消极的网络舆情是政府部门迫切需要解决的问题,也是舆情分析的根本目的。本文在......
主要介绍"中华烹饪文化"本体的构建以及基于该本体的文档语义标注方法两部分。在本体构建部分,采用手动添加、机器自动导入和人工......
本文针对国内中文垃圾邮件过滤研究缺乏语料库的问题,首先收集了700多封邮件建立了语料库。再在这个语料库的基础上进行研究,将......
商户为吸引客户消费出台的各种优惠,信息出处甚多,分散于互联网各处,用户到达度偏低。通过对信息的采集与处理,可实现商户各类优惠信息......
自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互......
搜索引擎是信息网络时代人们不可缺少的获取信息的重要工具,人们通过输入查询来获取搜索结果,从而从网络上的离散海量数据中获取想要......
中文分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶颈之一,其中对歧义字段的处理是影响分词精度的关键,国内外许多研究......
随着信息时代的到来,互联网信息量正在以指数级的速度增长。人们面临着一个如何在海量的内容中准确、快捷的找到自己所需信息的问题......
在自然语言处理领域,中文分词和词性标注是其它中文信息处理任务的前提和基础,而基于统计机器学习的中文分词及词性标注方法以其良好......
随着移动通信技术的发展和移动设备的日益普及,手机短信服务以其价格低廉、收发便捷和娱乐性强等特点备受我国移动手机用户的欢迎。......
现代网络的飞速发展,网上的信息量在以惊人的速度飞快的增长,人们对搜索引擎的要求不断地提高,为了找到一种更满足人们需求的搜索......
随着Internet的迅速发展,Internet上的信息成指数增长。由于网络信息资源的飞速增加,给人们在网上寻找所需信息带来了很大的困难。搜......
随着互联网的快速发展,越来越多的信息可以从网络上获得。但如何从大量的信息中抽取有用的信息仍然是一个问题。互联网上的信息大......
本文针对基于主题的信息抽取提出了一系列新颖的方法来解决抽取过程中所遇到的技术问题。首先,本文提出了一种基于概率匹配和词性匹......
电子邮件已经成为人们日常交流沟通的重要手段和企业运转不可或缺的重要组成部分,然而垃圾邮件作为电子邮件的副产物却日益影响着......